然而大量的统计数据、统计资料由于主、客观的原因被滥用,很难起到描述事实、传递信息的作用。相反,还往往对读者形成误导。达莱尔·哈夫(Darrell Huff),一位具有深厚统计背景的新闻记者——发现了这一现象。他在广泛调查的基础上,从报刊、杂志、书籍中,从美国统计学会一些统计学家提供的实例中,收集了大量案例,并在 1954年写下了“How to Lie with Statistics”一书。该书一经出版,便畅销美国,成为美国 20 世纪 50 年代的畅销书之一。并受到了当时美国各种书评杂志的好评。《管理评论》认为:“哈夫先生用如此生动的、充满人情味的方式来论述统计这个干巴巴的课题,真是一讯灵丹妙药。

作者摈弃了前 9 章使用的描述手法,直接正面地阐述了“对统计资料”应该“提出的五个问题”:(1)“谁说的?”(2)“如何知道的?”(3)“是否遗漏了什么?”(4)“是否偷换了概念?”以及(5)“资料是否有意义?”通过寻找这 5 个问题的答案,读者能初步判断资料是否真实可信。原著的标题为“How to Lie with Statistics”,有多种译法。可直译为《如何利用统计撒谎》,这样基本体现了本文前 9 章的行文风格,但考虑到作者的目的是识破谎言,最终将译名定为《统计数字会撒谎》。

培根曾经说过:“如果一个人以种种肯定的立论开始,他必将终止于各种怀疑;但如果他愿意抱着怀疑的态度开始,那么他必将获得肯定的结论。”我想对数据资料的判断和接收也是如此。

我们知道,一条河永远不可能高于它的源头。但如果在河的某处藏有水电站,却可以做到。同理,对样本研究后得到的结论不会好于样本本身。当数据经过层层统计处理,最后简化成一个小数形式的平均数时,结论似乎被确定的光环所笼罩,但只要再仔细留心整个抽样过程,这个光环就会破灭。

一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本,这种样本排除了各种误差。这就是耶鲁毕业生的收入数据失真的原因,也是许多你在报纸或杂志上读到的报道毫无意义的原因。

:无形的误差与有形的误差一样容易破坏样本的可信度。也就是说,即使你找不到任何破坏性的误差来源,但只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。

你不可能获胜!   除此之外,如何在各层内部获得随机样本呢?最有效的办法是准备好每一层中所有单位的名单,并以随机抽中的名单构成样本。当然,这耗资不菲。于是又转为街头调查,但由于遗漏了呆在家中的人而变得有偏;白天挨家挨户上门调查,又遗漏了上班族;转而改为晚上访问,但又不能包括那些看电影和去夜总会的人。

  民意调查最终将演变为一场与误差的遭遇战。所有信誉良好的调查公司将不可避免地投入到这场战斗中。调查报告的读者应谨记这点:这场战斗永远不会取得胜利。在看到“67%的美国人反对”或其他类似的字眼时,应保留这样一个问题:67%的哪些美国人?